跳到主要内容

案例6.3 视频教程

6.3.mp4 (21.07MB) 题目:
选择两个UCI数据集,分别用线性核和高斯核训练一个SVM,并与BP神经网络和C4.5决策树进行实验比较。
步骤1:在“项目模板”中找到周志华习题,打开第六章向量机习题案例6.2,创建模板。
步骤2:在“CSV上传”模块上传CSV文件,这里用到的是萼片花瓣的一个UCI数据集。
步骤3:在全部组件列表搜索“数据拆分CSV”模块,在“参数设置”的数据1比重和数据2比重设置为0.7:0.3,前70个数据是数据1集作为训练集,后30个样本是数据2作为测试集。
步骤4:在全部组件列表搜索“支持向量机分类SVC”组件,该实现基于libsvm,拟合时间与样本数量成平方比例。在参数设置的“kernel”字符串中,默认为rbf,指的是指定算法中要使用的内核类型。Linear为线性核,rbf为高斯核。其他参数均可选择默认参数。C为误差项的惩罚参数。一般来说,在支持向量机中,惩罚系数越大,正则化程度越低。高斯核的支持向量数目会较少,而线性核的会几乎没有变化。
分别在kernel选一个rbf和linear使用高斯核和线性核。同时设置好特征字段和标识字段。
步骤5:在全部组件列表搜索“决策树分类”DecisionTreeClassifer组件,criterion参数选择entropy,C4.5算法是ID3算法的延伸。区别于ID3算法通过信息增益选择分裂属性,C4.5算法通过信息增益率选择分裂属性。Max depth 为10,min samples split为2,min samples leaf为1。Max leaf nodes 为2. min impurity decrease为1.
C4.5算法对ID3算法主要做了一下几点改进:
  (1)通过信息增益率选择分裂属性,克服了ID3算法中通过信息增益倾向于选择拥有多个属性值的属性作为分裂属性的不足;
  (2)能够处理离散型和连续型的属性类型,即将连续型的属性进行离散化处理;
  (3)构造决策树之后进行剪枝操作;
  (4)能够处理具有缺失属性值的训练数据。
步骤:6:在全部组件列表搜索“模型预测”组件,设置好字特征字段和标识字段。
步骤7:在全部组件列表搜索“分类评估”组件,在“参数设置”的“评估指标”中选择accuracy_score。字段设置的标签列中输入class,预测列输入prediction。